Повышение точности распознавания внесловарных слов для интегральной системы автоматического распознавания русской речи
Аннотация:
Предмет исследования. Системы автоматического распознавания речи (Automatic Speech Recognition, ASR) активно внедряются в нашу повседневную жизнь, тем самым упрощая способ взаимодействия с электронными устройствами. Развитие интегральных (end-to-end) подходов только ускоряет данный процесс. Тем не менее постоянная эволюция и большая степень флективности русского языка приводят к проблеме распознавания новых вне словарных (Out Оf Vocabulary, OOV) слов, которые не принимали участие в процессе обучения ASR-системы при ее создании. В связи с этим ASR-модель может прогнозировать наиболее похожее слово из обучающих данных, что влечет к ошибке распознавания. Особенно это касается ASR-моделей, использующих декодирование на основе взвешенного конечного автомата (Weighted Finite State Transducer, WFST), так как они заведомо ограничены списком словарных слов, которые могут появиться в результате распознавания. Выполнено исследование проблемы на основе открытой базы русского языка (common voice) и интегральной ASR-системы, использующей WFST-декодер. Метод. Предложен метод дообучения интегральной ASR-системы на основе дискриминативной функции потерь MMI (Maximum Mutual Information) и метода декодирования интегральной модели с помощью TG графа. Дискриминативное обучение позволило сгладить распределение вероятностей предсказания акустических классов, добавив таким образом большую вариативность в результате распознавания. Так как декодирование с помощью TG графа не имеет ограничений на распознавание только словарных слов, оно позволило использовать языковую модель, обученную на большом количестве внешних текстовых данных. Основные результаты. В качестве тестового множества использована восьмичасовая подвыборка из базы common voice. Общее число OOV-слов в тестовой выборке составило 18,1 %. Полученные результаты показали, что использование предложенных методов сократило пословную ошибку распознавания на 3 % в абсолютном значении относительно стандартного метода декодирования интегральных моделей. При этом сохранилась возможность распознавания OOV-слов на сравнимом уровне. Практическая значимость. Использование предложенных методов может улучшить общее качество распознавания ASR-систем и сделать их более устойчивыми к распознаванию новых слов, которые не участвовали в процессе обучения модели.
Ключевые слова:
Постоянный URL
Статьи в номере
- Импульсная запись динамических голограмм в кристалле силиката висмута при изменении длины волны лазерного излучения
- Гибридный эндоскоп с телевизионной и многоспектральной обработкой изображений для диагностики рака внутренних органов
- Моделирование композитного волноводного голографического дисплея
- Применение методов инфракрасной спектроскопии в исследовании составов для проклейки бумаги
- Методика оптимизации распределения плотности пикселов по зоне наблюдения
- Оценка ошибки и разработка методики компенсации погрешности позиционирования оборудования с числовым программным управлением
- Компенсация внешних возмущений по выходу для класса линейных систем с запаздыванием в канале управления
- Люминесцентный метод исследования роста квантовых точек AgInS2
- Особенности импульсного лазерного напыления тонких пленок InGaAsN в атмосфере активного фонового газа
- Нахождение распределения электронов в сверхрешетках AlGaAs/GaAs
- Спектральные и кинетические свойства квантовых точек сульфида серебра во внешнем электрическом поле
- Влияние наноразмерных горизонтальных неоднородностей на послойный анализ поверхности методом рентгеновской фотоэлектронной спектроскопии
- Органические светоизлучающие диоды с новыми красителями на основе кумарина
- Изготовление и характеристика гибридного композита Al6082/SiC/порошок рисовой шелухи, получаемого методом фрикционного перемешивания
- Многопутевая безопасная маршрутизация для обнаружения атаки с захватом узла в беспроводной сенсорной сети
- Метод документирования архитектурных решений вычислительных платформ
- Метод мониторинга состояния элементов киберфизических систем на основе анализа временных рядов
- Применение волновой модели текста к задаче сентимент-анализа
- Автоматизированная оценка параметров электрокардиограмм в условиях пандемии COVID-19
- Мультиагентная адаптивная маршрутизация агентами-клонами на основе многоголового внутреннего внимания с использованием обучения с подкреплением
- Совместное обучение агентов и векторных представлений графов в задаче управления конвейерными лентами
- Моделирование процессов переноса излучения в газожидкостных пенах
- Статистическая оценка влияния величины сигнал/помеха на погрешность измерения параметров акустической эмиссии
- Моделирование процесса стационарного термоотражения для измерения теплопроводности материалов
- Математическое и компьютерное моделирование однорядных и двухрядных шестилопастных винтокольцевых движителей
- Дифференциально-разностная модель теплопереноса в твердых телах с использованием метода параметрической идентификации